iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
AI/ ML & Data

數據隱私:工具和風險系列 第 2

D2 - 所以AI/ML有什麼用.....嗯?數據分類?

  • 分享至 

  • xImage
  •  

「我在網購平台填寫信用卡號,會不會被盜刷?」我聽過好幾次類似的問題,如果平台真的不慎洩露敏感資料(特別是包含 個人識別資訊(PII) 的數據),處理者(Data Processor)大機率要接受罰款或消費者提起集體訴訟等狀況 ; 所以🥸,AI與ML能做到的「自動數據分類」技術,便是隱私管理中的關鍵部分,將數據中的敏感區分類與標注(特別是PII、金融數據或醫療記錄),這在應對GDPR、CCPA等隱私法規的要求中頗為重要。

數據的準備與預處理:

  1. 搜集數據
  2. 數據清理:處理數據中的多餘資訊,例如:刪除重複項、填補缺失、修正錯誤數據。
  3. 數據轉換:轉換為適合模型處理的格式。
    • 文字數據:進行分詞、詞幹提取、去除停用詞(出現頻率高但對分析沒幫助的詞)等。
    • 結構化數據:標準化數值和格式化日期。

建立分類模型 🧙🏻:

  1. 選擇模型:根據數據特性和需求選擇適合的ML模型。常見模型包括支援向量機(SVM)、決策樹、隨機森林、 深度學習模型(卷積神經網絡CNN、長短期記憶網絡LSTM)等。
  2. 特徵提取:從原始數據中提取特徵,用以訓練模型,例如:對於文本數據可以提取詞頻、TF-IDF、詞嵌入 等特徵。
  3. 標註數據集:將數據分為訓練集、驗證集和測試集。
    • 訓練集:訓練模型。
    • 驗證集:調整模型超參數。
    • 測試集:評估模型性能。

以上,對於處理敏感訊息,這些模型應會較為合適:

LSTM:被廣泛應用於文本數據處理,能夠捕捉上下文關係。
BERT:基於Transformer架構的預訓練語言模型。

模型訓練 📟:

使用訓練數據集來訓練模型,通過多次迭代調整模型的權重和參數,以最小化損失函數,提升分類準確性,此外,訓練過程中利用驗證集來監控模型的性能,避免過擬合(過度適應訓練數據而無法處理新數據)。
(*損失函數:幫助量化模型的預測誤差,常見有:分類問題、回歸問題)

調整

使用測試集來評估模型最終性能,包含準確率、F1分數 (🏎️??) 等,根據評估結果調整模型超參數。

結果處理

根據模型輸出進行標註,再加以處理,例如:標註為「敏感」的數據進行加密。

改進

定期對自動分類結果進行分析,配合增量學習或自我學習機制,使模型能隨著數據分佈變化持續更進。

綜上所述,利用預先訓練的ML模型來分析數據並識別類型,而這些模型可以基於自然語言處理(NLP)或深度學習技術來檢測數據中的敏感部分。


上一篇
D1 - 數據隱私的基礎
下一篇
D3 - 辨識者們
系列文
數據隱私:工具和風險30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言